Day 27 Switchboard 資料應用 - 雙人錄音的整合與修正 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 27

AI & Data

AI語音辨識系統：結合聲紋分析與情緒識別系列第 27 篇

Day 27 Switchboard 資料應用 - 雙人錄音的整合與修正

17th鐵人賽雙聲道音訊語者分離對話同步情緒交互分析

Harper

團隊躺平的內捲小隊

2025-10-11 01:05:48

110 瀏覽

分享至

▋前言

延續昨日的分析，今天我們實際嘗試修正雙人獨立錄音的處理方式，讓系統能正確識別「誰在說話、何時說話、以及雙方的情緒互動」，這是語音 AI 應用落地的重要一環。

▋內容

Step 1：音訊合併

使用 pydub 將 sw02001A.wav（講者 A）與 sw02001B.wav（講者 B）合併成雙聲道音檔：

from pydub import AudioSegment

a = AudioSegment.from_wav("sw02001A.wav")
b = AudioSegment.from_wav("sw02001B.wav")
merged = AudioSegment.from_mono_audiosegments(a, b)
merged.export("sw02001_merged.wav", format="wav")

合併後，左聲道為 A、右聲道為 B，模型在處理時能同時接收兩個聲音來源。

Step 2：重新分析結果

重新跑完整流程後：

Diarization：成功分出 Speaker 0 與 Speaker 1。
STT (Whisper)：逐字稿依時間正確排列。
SER (SpeechBrain)：可觀察對話的情緒曲線。

雖然把已經分離的音軌合併感覺有點多此一舉，但依照目前系統的分析方式，結果可能會得到改善，例如：

Speaker 0: "I think the weather’s been crazy lately."
Emotion: Neutral → Happy
Speaker 1: "Yeah, it’s been so unpredictable!"
Emotion: Neutral → Excited

這樣的輸出不僅標註了講話者，也呈現了雙方的情緒變化，讓整體互動更具可讀性。

Step 3：前後差異對照

項目	修正前	修正後
語者數	1 人 × 2 檔	2 人 × 1 檔
對話結構	無法對齊	時間同步可讀
情緒分析	各自分散	雙向交互
分析價值	單向片段	完整互動